如今,合作多代理系统用于学习如何在大规模动态环境中实现目标。然而,在这些环境中的学习是具有挑战性的:从搜索空间大小对学习时间的影响,代理商之间的低效合作。此外,增强学习算法可能遭受这种环境的长时间的收敛。本文介绍了通信框架。在拟议的沟通框架中,代理商学会有效地合作,同时通过引入新的状态计算方法,状态空间的大小将大大下降。此外,提出了一种知识传输算法以共享不同代理商之间的获得经验,并制定有效的知识融合机制,以融合利用来自其他团队成员所收到的知识的代理商自己的经验。最后,提供了模拟结果以指示所提出的方法在复杂学习任务中的功效。我们已经评估了我们对牧羊化问题的方法,结果表明,通过利用知识转移机制,学习过程加速了,通过基于状态抽象概念产生类似国家的状态空间的大小均下降。
translated by 谷歌翻译